#evaluación de respuestas

DynaCF: Mitigando el Aprendizaje por Atajos en Modelos de Recompensa

DynaCF reduce el aprendizaje superficial en modelos de recompensa mediante reajuste dinámico con contrafácticos, mejorando robustez y calidad de preferencias.

2026-06-09 · 1 min